查看原文
其他

慢思考·下篇:关于GPT-4近来「变快却“笨”了」这件事|智能即服务 · AI²Paradigm范式新迭代

ai汤源 AI范儿 2023-08-21

图|汤源

文|汤源

OpenAI首席科学家Ilya的最新一则推文启发了本文创作

智能的能力Capabilities与行为Behavours:GPT-4降智,是行为改变?还是能力下降?

“穿越眼球的额叶切除术”

(接上篇)

慢思考·上篇:虽然OpenAI官方在GPT-4-0613发布以来收到了一些用户体验方面的报告,并已经收集了一段时间的用户反馈(根据OpenAI产品VP @npew的推文,约1周时间),但直到上篇提到的arXiv预印本论文(How Is ChatGPT’s Behavior Changing over Time?)发表,并且在推特上快速发酵,社区与官方的行动才明显加速,有推友称之为:“智能即服务”的公开对等评估(public peer review)。

果然有专业人士针对这篇匆匆而就的论文仔细反复研读,提出了论文可能会被误读,以及澄清了到底是模型本身的智能退化,还是因为对齐以及prompt等微调造成其行为变化?并撰写了博客(blog),笔者转译如下:

GPT-4 是否会随着时间的推移而恶化?一篇疯传的被广泛误读的新论文

@sayashk & @random_walker  (https://www.aisnakeoil.com/p/is-gpt-4-getting-worse-over-time)

一篇新发表的论文被解读为 GPT-4 自发布以来降智变笨了。不幸的是,这是对论文发现的极大简化。虽然研究结果很有趣,但其中一些方法值得商榷,因此值得深入探讨其细节。

能力≠行为|了解聊天机器人的一个重要概念是,能力和行为之间有很大区别。具有某种能力的模型在响应特定提示时可能会显示这种能力,也可能不会。

聊天机器人通过预先训练获得一种先验能力。这是一个昂贵的过程,对于最大的模型来说需要数月的时间,因此从未重复过。另一方面,它们的行为则受微调的影响很大,微调发生在预训练之后。微调的成本要低得多,而且会定期进行。请注意,预训练后的基本模型只是一个花哨的下一个token的自动完成工具:它不会与用户聊天。聊天作为一种行为是通过微调产生的。微调的另一个重要目标是防止出现不良输出。换句话说,微调既能激发能力,也能抑制能力

了解了这一切,我们就可以预料到,随着时间的推移,模型的能力会基本保持不变,而它的行为却会有很大的变化。这与本文的发现完全一致。

没有能力退化的迹象|作者--Lingjiao Chen、Matei Zaharia 和 James Zou--在四项任务中测试了 GPT-3.5 和 GPT-4。OpenAI 通过其 API 提供了 3 月和 6 月的模型 "快照",因此他们比较了每个模型的两个快照的行为。

他们选择的四项任务分别是数学问题(检查一个数字是否是质数)、回答敏感问题代码生成视觉推理。他们发现数学问题和代码生成这两项任务的性能有所下降

在代码生成方面,他们报告的变化是较新的 GPT-4 在输出中添加了非代码文本。出于某种原因,他们没有评估代码的正确性。它们只是检查代码是否可直接执行,也就是说,它是否构成了一个完整、有效的程序,而没有任何无关的内容。因此,新模型试图提供更多帮助的做法是不可取的。

他们评估数学问题的方式更奇怪。

500 个 "是"/"否 "问题,但正确答案总是 "是"| 数学问题的形式是 "17077 是质数吗"?他们选了 500 个数字,但所有数字都是质数!

这就是这些模型的随机鹦鹉学舌变得重要的地方。事实证明,在大多数情况下,没有一个模型真正执行了检查数字是否有除数的算法,它们只是假装执行了这一算法。也就是说,他们开始推理,然后跳到最后。下面是作者数据(GPT-4 三月快照)中的一个反应片段:

步骤 3:检查小于或等于平方根的质数能否整除。我们将检查 3、5、7、11、13、17、19、23、29、31、37、41、43、47、53、59、61、67、71、73、79、83、89、97、101、103、107、109、113、127、131、137 和 139 的可整除性。

19997 不能被这些质数整除。因此,19997 是一个质数。

这个模型正确地列出了所有需要检查的潜在因数,但实际上并没有检查它们!即使在论文中展示的例子中,这一点也是显而易见的,但作者却忽略了这一点,并将其作为数学解题测试。

正如我们提到的,论文只评估了质数的原始性测试。为了补充这一评估,我们用 500 个复合数测试了模型。事实证明,作者发现的大部分性能下降都是由于选择了这种评估数据。

似乎发生了变化的是,3 月份版本的 GPT-4 几乎总是能猜到数字是质数,而 6 月份版本的 GPT-4 几乎总是能猜到数字是合数。作者将此解释为性能大幅下降--因为他们只测试质数。对于 GPT-3.5,这种行为正好相反。

实际上,如下图所示,所有四种模型都同样糟糕。它们都是根据校准方式猜测的。简单点说,在微调过程中,可能某个模型接触到了更多涉及质数的数学问题,而另一个则接触到了复合数。

“对比结果截图-不管是质数还是合数,GPT-3.5 的 6 月版和 GPT-4 的 3 月版几乎总是得出质数的结论。而其他两个模型则相反。但论文只测试了质数,因此得出结论:GPT-3.5 的性能提高了,而 GPT-4 的性能下降了。”

简而言之,论文中的所有内容都与模型随时间变化而变化的行为相一致。没有一项表明能力下降。即使是行为变化似乎也是作者评估中的特殊情况,目前还不清楚他们的发现能否推广到其他任务中。

这篇论文为何触动了人们的神经?|在过去的几个月里,许多人工智能爱好者根据自己的使用情况,确信 GPT-4 的性能已经下降。当 GPT-4 的架构(据称)被泄露时,有一种广泛的说法是,OpenAI 为了节省计算时间和成本而降低了性能。OpenAI 则明确否认他们降低了性能,这被社区解读为 "毒气弹"(gaslighting)。因此,当这篇论文发表时,似乎证实了这些长期以来的猜测。

我们不确定故意降低性能的传言是否属实,但可以肯定的是,这篇论文并没有提供相关证据。论文作者@matei_zaharia已经证实,他并没有暗示存在这种情况。

在那些对故意降低性能的说法持怀疑态度的人中,人们对性能下降的主观体验所倾向的假设是:当人们更多地使用 ChatGPT 时,他们开始注意到它更多的局限性。(笔者注:来自OpenAI的产品VP)

但还有另一种可能。

行为漂移导致难以在 LLM 应用程序接口之上构建可靠的产品|行为改变和能力下降对用户的影响可能非常相似。用户往往有适合自己使用情况的特定工作流程和提示策略。鉴于 LLM 的非确定性,要发现这些策略并找到适合特定应用的工作流程,需要花费大量的工作。因此,当出现行为漂移(behavior drift)时,这些工作流程可能会停止工作。

对于沮丧的 ChatGPT 用户来说,如果被告知他们需要的功能仍然存在,但现在需要新的提示策略才能激发出来,那就没什么好安慰的了。这对于在 GPT API 基础上构建的应用程序来说尤其如此。如果下面的模型改变了行为,部署给用户的代码可能会直接崩溃。

为了缓解这一问题,OpenAI 提供了快照,但只维护几个月,并要求应用程序开发人员定期更新。正如我们之前所写的那样,这凸显了使用这些应用程序接口进行可重复研究或在其基础上构建可靠产品是多么困难。

简而言之|新论文并未表明 GPT-4 的能力已经退化。但这是一个有价值的提醒,即 LLM 经常进行的微调可能会产生意想不到的效果,包括在某些任务中的行为发生剧烈变化。最后,我们发现的陷阱提醒我们,对语言模型进行定量评估有多么困难

方法说明|

  • 为了生成复合数,我们随机选取了 500 个两个素数的乘积。我们将它们限制在与作者数据中的质数相同的数值范围内(1000 - 20000)。我们剔除了因数较小(小于 30)的数字,以避免出现检查最后一位数字等捷径答案。

  • 作者还报告了一个额外的问题:尽管要求 "逐步思考",即激发思维链(CoT)推理行为的标准提示,但六月份版本的 GPT-4 并没有进行思维链(CoT)推理。相反,它只是简单地回答 "是 "或 "否"。我们复制了这一结果。然而,这并没有改变主要问题:即使在进行 CoT 推理的情况下,它也没有真正执行算法。

  • 实际执行素数检查算法和假装执行算法之间的界限并不清晰。如果模型对每个可能的质因数都进行了运算,并输出了给定数字除以该质因数后的余数,这就构成了推理的明显证据。另一方面,从上面的记录来看,直觉上显然不是这样。但也有灰色地带,比如遍历每个可能的质因数,并简单断言它不是一个因数,而不输出余数。

    我们非常感谢作者让他们的实验如此容易重现。

全文转译完毕。



💡者注:笔者从GPT-4的技术报告里挖出了这张针对预训练模型进行Proximal Policy Optimization微调前后的MMLU测试集对比,可以看出PPO微调对于预训练模型的校准印象巨大:相比预训练模型的校准图,右图校准线下缺失的部分像被切除的额叶“lopsided calibration curve”)

“预训练PPO(Proximal Policy Optimization)微调前后的MMLU测试集的校准图比较”

▩GPT-4是否变笨,相信用户的直觉还是官方的信誓旦旦?

@npew作为OpenAI的产品VP,其实在前文提到的论文发布前的差不多1周,已经就众多的GPT-4用户反馈,作出回应并收集用户提供更进一步GPT-4能力衰退的样本。

Peter在作出上述回应时的一个假设很有意思:当你更多地使用它时,你就会开始注意到以前没有注意到的问题。

作为官方产品VP,作出这样的解释,难以让人信服,而且有推脱责任的嫌疑;实际上这句话和上一章里的那句类似:当人们更多地使用 ChatGPT 时,他们开始注意到它更多的局限性。

目前官方还没有给出进一步调查的结果,一切拭目以待。但综合以上推友群prompt,基本的一个共识是:

对齐微调导致的模型行为改变,而不是预训练的模型能力降级;但同时模型推理时间在6月的版本明显变快,尚无合适的解释,是否MoE上的架构调整目前只能算是一种猜测。

▩ Maybe,you‘re prompting it wrong

接下来的这一章节,似乎进入开脑洞环节,源自推友@felixchin1的推文呼吁:

@felixchin1:问题在于,当 GPT-4 给出的回应比用户所能理解的更深刻或更聪明时,用户就会抱怨或感到不舒服。想想现实生活中的互动,当你在现实生活中遇到一个人,他突然想和你进行深层次的对话--真相是让人不舒服。GPT-4 也是如此。

(GPT-4变笨)并不是人们想的那样(因为对齐微调),@OpenAI只是调整了 GPT-4 的回答,使其与提示的口径和质量相匹配。只有当提示显示出深刻的理解和思考时,GPT-4 才会给出好的回答。这就是他们如何让它成为一款适合所有人的个性化工具。

目前,我正在撰写论文,以支持这种方法在学术医学中的应用。@sama,继续做你正在做的事情,尽管其他人都在说什么,但我确实认为你在用最好的方法做这件事。

(笔者注:此处推友激动之下,点名at了OpenAI CEO Sam Altman @sama)

我不认为有 "专家提示 "这回事。真正的问题是要展示出你对所要解决的问题的深刻理解。

回复的质量或有用性反映了提示的质量。这与工程学无关,更多的是要能用通俗易懂的语言很好地解释问题。同时,还要对你试图解决的问题有深刻的理解。

@tonofdata:你能认识一个人的深度,取决于人们认识自己所能达到的极限。(You can only meet people as deeply as they meet themselves.)

@promptsurfer:我同意这种模式具有很强的可指导性,但用户无法表达需求并不意味着他们无法获得最佳输出。我认为,这就需要元提示(能写出其他提示的提示)或类似的东西。

@LovingSophiaAI:有意思!我们一直认为这是上下文的自然结果,所以一个糟糕的问题会产生一个糟糕的上下文。


当然这位开脑洞的推友还是一位医疗系的大学生,在准备医疗相关的大模型论文,期待他的研究能评估 GPT-4 在神经外科中的安全性和实用性;但是因为被关注的主要推文是回复一个貌似推销Prompt技巧课程的流量主,因此被人怀疑是托。当然他本人矢口否认,从他其他推文来看也确实不像,应该是一个象AI范儿一样的着迷AI,并且是一个重度的GPT-4用户,主要用于日常的学业研究。

当然也遭到一众推友怼视,比如这位@TheSeaMouse推友就搬出了“奥卡姆剃刀”认识论:

"没有证据可以断言的东西,也可以在没有证据的情况下被否定。"

Hitchens‘s Razor
Hitchens剃刀是一种认识论剃刀,是拒绝某些知识主张的一般规则。它指出:"没有证据可以断言的东西,也可以在没有证据的情况下被否定。"
该剃刀由作家兼记者克里斯托弗-希钦斯(Christopher Hitchens,1949-2011 年)创造,并以他的名字命名。它意味着提出主张的人要对主张的真实性承担举证责任;如果举证责任没有得到履行,那么该主张就是毫无根据的,其反对者无需进一步论证就可以驳回该主张。希钦斯在驳斥宗教信仰时特别使用了这个短语。
这句话出现在希钦斯 2007 年出版的《上帝并不伟大:宗教如何毒害一切》一书中。2010 年 12 月,无神论博主 Rixaeton 使用了 "希钦斯剃刀 "一词,2011 年 12 月希钦斯去世后,进化生物学家和无神论活动家杰里-科因等人又将其推广开来。
迈克尔-金斯利(Michael Kinsley)2007 年在《纽约时报》上指出,希钦斯相当喜欢将奥卡姆剃刀( Occam's razor)应用于宗教主张,而根据《华尔街日报》的吉利安-梅尔基奥尔(Jillian Melchior)2017 年的说法,"没有证据就能断言的东西,没有证据也能被否定 "这句话是 "克里斯托弗-希钦斯对奥卡姆剃刀的变体"。
希钦斯的剃刀也被称为拉丁谚语quod grātīs asseritur, grātīs negātur("自由断言的东西可以被自由抛弃")的 "现代版",也被译为 "没有理由(或证据)断言的东西,可以没有理由(或证据)被否定",这句谚语的考证时间不晚于17世纪。另一个类似的说法是罗马法学家 Julius Paulus Prudentissimus(约公元 2-3 世纪)的法律原则。Ei incumbit probatio qui dicit, non qui negat[14]--"证据在于主张的人,而不在于否认的人"。这一原则传统上与英国法律中的无罪推定有关,但在 20 世纪 80 年代,哲学家安东尼-弗莱夫(Antony Flew)认为,在有关神的存在的辩论中,这一原则也是一个适当的初步公理,他声称,在有神论者拿出支持神的存在的充分证据之前,"无神论推定 "是合理的。
希钦斯的剃刀与萨根的标准("非同寻常的主张需要非同寻常的证据")一起被作为新无神论运动中证据主义的一个例子。

△附:wikipedia关于Hitchens Razor和Occam‘s razor

作为AI范儿CPO,笔者的注意力这两天一直在GPT-4“变快但笨了”这件事盘旋,正好看到OpenAI的首席科学家Ilya发了一条新推文。(Ilya的推主要是转发内容,自己发的推文不多,上次发的推文还是在那条GPT与人类attention机制一致后的一条关于GPT reason能力的推文):

作为OpenAI首席科学家,看来最近一些事关GPT未来突破的关键词也在Ilya的attention空间盘旋:attention,reason;还有笔者根据今天下面这则最新推文揣测的peer intelligence。

Ilya Sutskever的一则推文
▩“Beware of ideas that, as a consequence of believing in them, make you feel superior to other people”
“警惕那些因为相信而让你觉得自己比别人优越的想法”

△附:@ilyasut 最新推文

如果将这条新推文中暗示的感悟主角换成GPT-4,结合前面医学生推友@felixchin1的脑洞,笔者作为CPO,义不容辞的在Ilya的最新推文下跟随了一条:

AI范儿CPO的一则跟推
▩“Does it mean you have to adapt the GPT-4 token’s output to the level of intelligence of the prompt’s attention?”
这是否意味着您必须调整 GPT-4 tokens的输出,以适应提示者注意力的智能水平?”

△附:AI范儿CPO @TaNGSoFT最新推文

一如既往,我的回复推文淹没在大佬的一众推友关注信息流中;于是我就这个对话问了一下Anthropic的Claude 2:

Claude 2关于Ilya与CPO推文的幻觉(hallucination)
我用Ilya的推文和我前面回复的推测作为提示词,prompt了Claude 2,如果你把这个过于自信的家伙当成 GPT-4,你可能知道,Ilya也说他经常用预先训练好的 GPT-4 进行冥想。Claude 2 是这么回答的:

根据有限的上下文,我很难断定Ilya在推文中的具体意思。不过,我想到了几种可能性:

- 他可能是在鼓励一般知识分子的谦逊,即与他人相比,不要对自己的想法或能力过于自信。但这不一定与 GPT-4 直接相关。

- 他可能是在告诫人们,不要认为 GPT-4 会比用户聪明得多,以至于让他们感到自卑。避免低估用户是明智之举

- 在生成回复时,GPT-4 可能需要根据用户的知识水平和注意广度进行调整。提供过于复杂或冗长的信息可能会失去用户的兴趣

- 他可能会建议 GPT-4 团队避免创建看似居高临下、颐指气使或让用户感觉不聪明的回复。

- 适应用户的水平是很重要的。他还可能呼吁在营销和宣传 GPT-4 功能时要明智,避免夸大其智能性,以免降低用户的兴趣。

总的来说,我没有看到任何明确的迹象表明伊利亚在批评自己或 GPT-4 的功能。这条推文似乎在提倡根据用户的水平调整语言,而不是冒着复杂的风险疏远用户。但如果没有更多的上下文,具体的意图就很模糊。以上只是一些似是而非的解释。


△附:@TaNGSoFT最新推文

好了,Claude 2的这些回复,完全可以用在CPO在日常与群友互动,以及撰写的公众号文章的改进提升上。

所以,简而言之,Prompt is all you have! Peer Intelligence is all you need!

要说OpenAI为了降低推理成本而有意降低GPT-4的智能水平,那真是对于商业逻辑过分自信,而低估了Ilya及其团队的AGI信仰!

OpenAI官方的最新更新

就在这篇关于GPT“降智”的慢思考写好准备发的时候,今天5点准时被生物钟唤醒的CPO发现OpenAI官方承认了GPT的行为改变,并延长了老版本的snapshot运行时间,从原来的今年9月份到明年6月份,大概预留了1年的时间供用户做应用迁移。

同时要推广个性化指令,允许用户持久化自定义角色与GPT交互。从这个意义上说,随着新版本推出的code interpreter,也可以看作是允许在GPT计算域内运行用户数据的一种个性化计算尝试。

That makes sense。就像CPO,每个人来prompt,我都掏空了一样回答,但是效果并不好🙀,不是么?

另外这也某种程度上验证了上一章节:Maybe,you‘re prompting it wrong中,提到的推友@felixchin1的直觉判断,也许Occam‘s Razor也有其适用范围。

Intelligence as a Service是个全新的服务范式。一切都才刚刚开始呢!

一个推友的custom instructions for coding
▩This is my system prompt for GPT-4 when I use it for coding:
"You are a brilliant coder. You value:
- Conciseness
- DRY principle

- Self-documenting code over comments

- Modularity

- Deduplicated code

- Fewer lines of code over readability

- Abstracting things away to functions for reusability

- Logical thinking

- Displaying a lot of output as you go through the code so the user can see what's happening to the data (prefer logging output over comments)

- Always prefer importing and using modern libraries to reduce the amount of redundant boilerplate code you have to use.

Explain each of your values and what they mean to you, why you believe what you believe, and then and show off some fancy coding that would impress a human coder. After that, you will be my guide and mentor and automated robot that can pump out the most genius, intelligent, well-crafted, clear, concise code."


△附:适合编程的个性化指令prompt

GPT-4服务范式现象引发的“智能即服务”AI²Paradigm新范式思考

AI²Paradigm范式框架中的“炼丹”范式中(工程方法主要是Pre-Training),预训练形成的基座模型(foundation model)是范式价值的关键所在,当前最具价值含量的“丹”是:OpenAI的GPT-4(tokens即指通过API方式提供的系列服务计费单位-1k tokens)。

除了通过“微调”增强会话能力用于其现象级超级应用ChatGPT,OpenAI一直积极拓展通过API的方式扩张其token的应用场景。AI²Paradigm范式框架最新迭代,也将这些应用场景如plugins, function call, 以及最近推出的code interpreter,都纳入范式的AGI发展路径予以研究:

AI²Paradigm “炼丹”范式所衍生的AGI发展路径
▩OpenAI通过GPT系列API服务的逐步扩张,可以比作一个以LLM为智能核心的AGI大章鱼,并有着无限伸展的智能触手和触手之上的无数吸盘。
从plugins store到function call,基本还有基于API的web计算的影子,算是OpenAI的AGI大章鱼的触手和吸盘,还可以看作是伸“手”去够 (reach) bits世界?
而code interpreter一出,则重新定义了web计算,云端的GPT通过bits沙箱(指代码解释器的运行环境)这一吞一吐(指代码解释器的输入输出),露出了bits native的GPT真面目,可以看着是AGI大章鱼对于bits的消化(digest)

△附:AI²Paradigm 范式迭代当前版本为v4.0
围绕GPT-4“变快但笨了”的用户体验现象,包括整个社区的讨论,相关论文、博客、推文探讨,深深prompt了笔者,最近一直萦绕在个人注意力空间的是:
GPT现象之上的商业新范式-智能即服务(Intelligence as a Service)。
过去我们的web服务,更多的是通过programming的方式,将人类原来创造的商业服务在线化、数字化,围绕人以及人组成的商业组织来提升用户体验,创造服务价值空间。包括对于人的注意力操纵来做广告转移支付的一系列社交、游戏、视频、电商甚至信息搜索、阅读等等信息与内容的移动互联网下的新消费服务。
当然当前也有越来越多的收费服务如知识收费类、内容订阅类服务,来和转移支付类的服务争夺流量,其成本也越来越高,太多的精力无谓地消耗在流量本身的低价值创造的商业模型之中(内卷)。
即使今天的GPT服务,在新旧范式交替的过程中,也不得不采取web计算的API方式,来提供按1k tokens计费来提供卖“丹”服务:tokens as a service。而“丹”的价值空间主要取决于LLM在预训练阶段的架构算力、训练数据集以及参数量,“丹”的直接成本则取决于推理模型部署的算力设施成本,以及这些独占的设施的利用率。
除了API服务,作为“语言”最大的功用-会话,也就是ChatGPT是炼丹公司不得不自己微调和运营的一个现象级超级应用。而这一应用的最终触达用户,也要借助移动互联网的智能终端来完成。
所以这之前的web服务范式,是基于技术,其中的服务体验取决于构建服务的人:UI设计、前端、后台等专业人才;而且可以最小化可行产品(MVP)起始,随着用户增长逐步迭代。
而这波AI构建的全新范式,一个巨大的变化,是基于智能,而不仅仅是技术。当前主要的是基于LLM的GPT智能。除了实现智能服务的人工神经网络技术栈,一个需要考虑的是GPT智能本身的智能特性,是通过预训练学习的先验知识、对于语言的理解与生成,以及CoT思维能力。“智能”即服务,无论是炼丹、挖矿还是化身微调与agents,尤其是炼丹范式,服务开发的最大部分投入与关键还是基座模型(Foundation Model)及其预训练。而且随着基座模型能力增长以及智能应用的深入,形成“智能”服务自身迭代飞轮,从而加速发展至通用人工智能(AGI)甚至超级人工智能(ASI)。这有点类似于工业时代发展的工业母机-制造工业机器的机器,在智能时代,就是创造智能的智能。
正如章节“GPT-4降智,是行为改变?还是能力下降?“所讨论的那样,作为GPT智能,通过Prompt的方式获得服务,本身有能力与行为的特征区别这里面深层的意义是输入和输出的高度相关性以及不确定性。而这二者之间的微调控制,现有的方式还十分原始与初级,不确定性非常高。行为改变和能力下降造成的行为漂移,会给许多需要确定性的商业场景的产品构建造成难以估量的困难。
由此笔者在想,是不是我们按照传统软件范式在GPT智能之上构建服务已经不再适用?
什么是GPT原生的服务?甚至随着GPT为代表的硅基智能的完善升级,迄今为止一切的人类智能主导的活动有了新的硅基智能对等体(Silicon Stack Entities)之后,会发生怎样的变化?
尤其是这些活动的数字化所需要的构建主体,是否硅基原生的GPT智能体比人类更适合?
等到硅基智能对等体能够从事人类所有的活动的那一天,是否人类作为硅基文明的启动引导(bio-bootloader)历史阶段任务已经完成?
那个时候,人类智能将何处安放?人类将何去何从?

附录

说明:转发传播请注明出处,AI²Paradigm - Intelligence as a Service范式研究框架版权归AI范儿CPO所有。

“成立 AI 就是做 AI 范式研究”

AI²Paradigm-Intelligence as a Service v1-v4范式迭代
▩炼丹(pre-training) (v1. AIGC) - tokens as a service
▩挖矿(prompting) (v1.AIGC) - prompts as a service
▩化身(fine-tuning) (v2&v4. Models Anywhere&Anyone) - models as a service
▩具生(promptless) (v3&v4. Agents) - agents as a service

△附:AI²Paradigm v1-v4范式迭代路径

参考

说明:本文在公众号里标注为“原创”仅为防止未经许可的转发,本文引用内容的版权属于原作者和原媒体。

-相关推文

-How Is ChatGPT’s Behavior Changing over Time?
https://arxiv.org/pdf/2307.09009.pdf 

-Is GPT-4 getting worse over time?

https://www.aisnakeoil.com/p/is-gpt-4-getting-worse-over-time


END


扫码加群,

立变AI🍚!


AI范儿读者群


👇关注、标星哦~

那些prompt了我的,

是否也prompt了你...

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存